Википедия:Заявки на статус бота/RotlinkBot

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

User:RotlinkBot[править код]

Здесь находятся завершившиеся обсуждения. Просьба не вносить изменений.

вкладправкиSULжурналыблокироватьлог блокировокжурнал изменения правприсвоить флаг

Ответственный ботовод/Botmaster: Rotlink

Цель/Purpose[править код]

Поиск контента мертвых ссылок на web-архивах и добавление параметра archiveurl к тем внешним ссылкам, которые его не имели (например, в результате работы WebCite Archiver)

Примеры правок: [1] [2]

Отличие от WebCite Archiver в том, что RotlinkBot работает только с мёртвыми ссылками, которые уже поздно сохранять на WebCite.

Например, есть свежеумерший сайт world-gazetteer.com и более чем 4000 ссылок на него.

Технические подробности/Technical details[править код]

Бот написан на Scala, используются Java Wiki Bot Framework и Sweble Parser.

Обсуждение/Discussion[править код]

  • Судя по [3] отличие от WebCite Archiver состоит в некорректном комментарии и ссылке на другой сервис. Для мёртвых ссылок не добавляется специальный параметр deadlink. Кроме того, замены полностью на архивные копии возможны только для ссылок, неработающих в течение длительного времени, и иногда желательно заменять ссылкой на аналогичный ресурс. По приведённым примерам правок, вместо этого [4] лучше исправленная ссылка на сайт. — w2. 16:27, 12 августа 2013 (UTC)[ответить]
  • Таким образом, нужно внимательнее подходить к идентификации мёртвых ссылок; описание правок сделать стандартным, ближе к WebCite Archiver; параметр deadlink для удобства читателей должен проставляться; вместо замен ссылок на страницы в кэше на архивные копии страниц в кэше по возможности корректировать ссылки. — w2. 05:42, 13 августа 2013 (UTC)[ответить]
  • Сервисы используются разные. К счастью, почти все сервисы сейчас поддерживают единое API [5]. 2/3 ссылкок удаётся найти на archive.org (потому что он самый большой) и 1/3 на archive.is (потому что он превентивно архивирует ссылки с Wikipedia). И очень мало на остальных архивах.
  • Про deadlink согласен, исправлю (в англ. wiki он по умолчанию =yes).
  • Иногда, да, мёртвая ссылка со временем "оживает", и лучше восстановить её. Но, если в статье уже была ссылка на архив или Google Cache, бот предполагает, что она появилась не случайно, и с оригинальной ссылкой что-то не то (даже если оригинальная ссылка жива, возможно, с неё удалили цитируемый контент). Поэтому, мертвые ссылки на архив или Google Cache заменяются также ссылками на архив, но такими, чтобы них присутствовал оригинальный URL, и, если он вдруг "ожил", его можно было бы восстановить. Автоматически бот это делать не может. Например, у домена мог смениться владелец и по оригинальной ссылке сейчас отдаётся совсем другая страница. Rotlink 06:50, 18 августа 2013 (UTC)[ответить]
    • Ссылки на Google Cache относятся к неприемлемым ссылкам. В большинстве своём они добавляются начинающими участниками. Их не архивируют и не производят над ними косметические изменения (в этом вообще мало толка), но удаляют или заменяют на приемлемые. По-моему, поскольку бот не проверяет ссылки [6] на соответствие правилам, и после их всё равно нужно проверять вручную, точнее заменить на корректный адрес страницы с пометкой о необходимости проверить приемлемость ссылки. В целом, затея с автоматической простановкой шаблона Cite web тоже кажется сомнительной полезности. По замене определенно мертвых ссылок на их архивные копии с условиями заполнения параметра deadlink и корректным описанием правок бота у меня нет возражений. — w2. 07:24, 18 августа 2013 (UTC)[ответить]
Вот, кстати, этот diff очень хороший пример. Ссылки http://publicpost.ru/theme/id/1777/ нет на Internet Archive [7], а на archive.is она заархивированна уже из Google Cache [8]. Наверное, для таких ссылок вот такой [9] стиль будет оптимальным? Rotlink 07:43, 18 августа 2013 (UTC)[ответить]
Для таких ссылок, вполне, хотя, на мой взгляд, чаще получается не совсем оптимально. — w2. 08:00, 18 августа 2013 (UTC)[ответить]
  • В задачах на СО бота: «Проверка подозрительности внешних ссылок по базе MyWot.» Как будут использоваться результаты проверок при редактировании статей? — w2. 08:00, 18 августа 2013 (UTC)[ответить]
  • Превращение ссылки на подозрительный домен в некликабельную (заворачиванием её в специальный шаблон). Но это задача на перспективу, я пока даже не проверял, сколько таких ссылкок есть. Rotlink 16:18, 18 августа 2013 (UTC)[ответить]
  • в целом я (+) За бота, есть еще мнения? rubin16 16:04, 29 августа 2013 (UTC)[ответить]
  • (+) Поддерживаю, хороший бот. Что-то, может, неоптимально, но ботоводу об этом участники выскажут ещё =) а вреда он не делает. Я "за", но хорошо будет, если ботовод присобачит добавление {{deadlink}} к оригинальной ссылке, может быть? --Akim Dubrow 16:16, 29 августа 2013 (UTC)[ответить]

Итог/Summary[править код]

Присвоен rubin16 06:40, 31 августа 2013 (UTC)[ответить]